最优问题
参考:https://blog.csdn.net/mytestmy/article/details/16903537
目标
数据分布为f(x),则计算min(f(x))时的x取值
应用
在模型中的各种损失函数的计算、各种最优化的选择
方法
迭代法:给定一个初值x0,则按照一定的方向dk,和步长ak,进行迭代可以得到一个点列,无限趋近最优解
原则:
- 必须沿梯度的负方向(大于90度)进行迭代【目标是最小】
- 每次迭代得到的数据都使目标更小
超参数:
- 步长:决定收敛速度,且不恰当的步长可能导致不动
收敛速度:
- 当前选择相对收敛最快的方法是Q-二阶收敛速度(牛顿法)、Q-超线性收敛速度
常用方法:
- 梯度下降法:沿负梯度下降
- 随机梯度下降(SGD),每次更新梯度均选择新的一个样本进行计算
- 小批量梯度下降(MBGD),每次更新梯度均选择新的一批样本计算
- 批量梯度下降(BGD),每次更新梯度均选择全量样本计算
- 拟牛顿法
- 牛顿法:二阶下降,收敛更快